PDF Extractor SDK для разработчиков программного обеспечения Windows: PDF в текст, PDF в XML, изображения из PDF, чтение PDF-данных, PDF в CSV для Excel.
Bytescout PDF Extractor SDK позволяет конвертировать PDF в текст, PDF в XML, PDF в CSV, извлекать изображения из PDF, извлекать информацию о файлах PDF в .NET и ActiveX-интерфейсах без какого-либо дополнительного программного обеспечения.
Выгоды:
конвертирует PDF в обычный текст (и может следовать столбцам, если вы конвертируете газету в формате PDF) - включая невидимое извлечение текста;
конвертирует таблицы в PDF в Excel (CSV), читая ячейки из данного прямоугольника;
конвертирует таблицы в файлы PDF в XML;
извлекает метаданные файла PDF (название, автор, описание) и получает другую информацию о файле (количество страниц, зашифрованных или нет);
извлекает встроенные изображения из документа PDF (в ASP.NET, VB.NET, C #, VB6 и VBScript);
Интерфейсы и классы DocumentMerger и DocumentSplitter для объединения и разделения PDF-документов;
не требует установки Adobe Reader или любого другого программного обеспечения для чтения PDF-файлов;
предоставляет интерфейсы .NET и ActiveX;
сделанный с 100% -ным кодом C #.
Что нового в этой версии:
Версия 9.0.0.3079: Добавлена фильтрация извлеченного контента по имени шрифта, размеру шрифта и цвету.
Обновлен движок OCR до последней версии. Обновите языковые файлы из папки «tessdata».
Улучшенное извлечение текста, группировка строк в табличных данных, производительность, извлечение форм XFA, TableDetector, исправленные проблемы синтаксиса PDF.
Что нового в версии 8.7.0.2980:
Добавлена фильтрация извлеченного контента по имени шрифта, размеру шрифта и цвету.
Обновлен движок OCR до последней версии. Обновите языковые файлы из папки «tessdata».
Улучшенное извлечение текста, группировка строк в табличных данных, производительность, извлечение форм XFA, TableDetector, исправленные проблемы синтаксиса PDF.
Что нового в версии 8.6.0.2911:
Добавлена фильтрация извлеченного контента по имени шрифта, размеру шрифта и цвету.
Обновлен движок OCR до последней версии. Обновите языковые файлы из папки «tessdata».
Улучшенное извлечение текста, группировка строк в табличных данных, производительность, извлечение форм XFA, TableDetector, исправленные проблемы синтаксиса PDF.
Что нового в версии 8.2.0.2699:
Версия 8.2.0.2699 может включать неопределенные обновления, улучшения или исправления ошибок.
Что нового в версии 8.0.0.2528:
Что нового в версии 7.0.0.2474:
Версия 7.0.0.2474:
- добавлен новый класс утилиты DocumentPrinter, позволяющий без труда печатать документы PDF (без каких-либо диалогов пользователей)
- добавлен новый класс JSONExtractor
- добавлено переопределение для метода DocumentSplitter.Split (), позволяющего указать выходную папку для сгенерированных файлов
- исправлена ошибка многопоточности в DocumentSplitter
- tableDetector теперь учитывает область извлечения, заданную методом SetExtractionArea ()
- новые свойства в классах экстракции: ExtractionColumns - содержит координаты обнаруженных столбцов; CustomExtractionColumns - позволяет переопределить обнаружение столбцов
- Методы GetPageRect * не учитывали поворот страницы.
Исправлена ошибка в установке, вызывающая некоторые файлы из предыдущей установки, мешала обновлениям - переработала регистрационную проверку. Теперь библиотека не будет генерировать исключение, но работать в демонстрационном режиме, если вы пропустили или внесли неправильное имя RegistrationName и RegistrationKey
- PDF Multitool: добавлен недавний список документов в кнопку «Открыть документ PDF»
- PDF Multitool: теперь можно изменить размер
- PDF Multitool: добавлена функция Extract JSON
- PDF Multitool: улучшенный пользовательский интерфейс для определения таблиц
- PDF Multitool: значительно улучшено качество визуализации
- PDF Multitool: добавлена опция отладки «Показывать обнаруженные столбцы извлечения» в контекстное меню, чтобы отображать обнаруженные столбцы на текущей странице. Становится видимым только после запуска любого извлечения против текущей отображаемой страницы
- PDF Multitool: проблема исправления шрифтов в 32-битной Windows
- другие незначительные улучшения и исправления ошибок.
Что нового в <6>
Что нового в версии 6.20.2354:
Версия 6.20.2354:
- PDF To Text, PDF To CSV, PDF Для улучшения функций XML
- Новые примеры извлечения, извлечения аудиофайлов
- Извлекители CSV и XML улучшили поддержку таблиц с пустыми столбцами внутри
- новый MultimediaExtractor для извлечения видео и аудио из PDF
- новое свойство PageDataCaching
- новый пример «MemoryCareProcessingOfHugeFiles»
- Исправлено исключение null при попытке удалить уже расположенные страницы
- XLSExtractor: улучшает поддержку шрифтов.
- SkipInvisibleText теперь пропускает сжатый текст (который не отображается)
- улучшение вывода текста
- XFDF Extractor: добавлена поддержка флажков
- Улучшен вывод изображений для поддержки дополнительных подформатов
- Улучшена обработка текста в Юникоде
Что нового в версии 6.11.2149:
Версия 6.11.2149:
- Образцы пакетной обработки обновлены, чтобы показать использование метода Reset ()
- Исходный код C ++, добавленный для извлечения страниц
- DocumentMerger добавляет метод Merge2 (inputfile1, inputfile2, outputfile) для объединения двух файлов
- Исправлены ошибки XLS Extractor
- PDF Multitool теперь позволяет включать / отключать текстовые, графические, векторные слои, добавлять дополнительные параметры для извлечения текста
- XML, CSV, извлечение таблицы улучшает поддержку таблиц с ячейками emtpry внутри столбцов
- . Улучшено свойство ExtractShadowLikeText: лучшая фильтрация для теневого текста
Что нового в версии 6.10.2136:
Версия 6.10.2136:
- PDF to XML, PDF to CSV, улучшена функциональность PDF To Text
- PDF В образец командной строки XLS добавлен (на основе vbscript)
- PDF В HTML SDK добавлено новое свойство .DetectHyperLinks (по умолчанию TRUE), чтобы включить / отключить автоматическое обнаружение ссылок в тексте
- новый SearchablePDFMaker (доступный для лицензий PRO) для преобразования PDF в файлы PDF с возможностью поиска
- новые свойства в экстракторе: рассмотритеFontNames, рассмотритеFontSizes, рассмотритеFontColors, рассмотритеVerticalBorders в файлах CFG
- обнаружение заголовков столбцов (когда AutoAlighHeaderToColumns = true) улучшено
- .DetectLinesInsteadOfParagraphs заменены новым .LineGroupingMode, чтобы контролировать, как строки объединяются в параграфы
- ВАЖНО! PDF To XML исправляет проблему с большим временем с неправильной координатой Y для текстовых объектов (указывал на нижний левый, а не на верхний левый)
- . Добавлены свойства TableXMinIntersectionRequiredInPercents и .TableYMinIntersectionRequiredInPercents.
- Добавлен образец исходного кода на C ++
- XML Extractor исправляет отсутствие пустых столбцов в режиме PreserveFormatting = true
- незначительные исправления в цветах в некоторых файлах PDF
- добавлена поддержка нескольких языков OCR
- PDF Multitool GUI: добавляет кнопку Copy to Clipboard в диалоговые окна TXT, CSV, XML и растрового рендеринга
- XLSExtractor: добавляет свойство PageToWorksheet для включения / выключения генерации отдельных листов на страницу
- новое свойство .TextEncodingCodePage
- PDFViewerControl: добавляет ValidateContextMenu, позволяя пользователю добавлять пользовательские элементы в контекстное меню
- Управление просмотром PDF: добавляет свойства ShowTextObjects, ShowImageObjects, ShowVectorObjects
- XMLExtractor теперь добавляет атрибут «OCRConfidence» для распознанного текста
- Функция проверки PDF / A (в бета-версии)
- улучшение контроля и проверки текста и выравнивания в соответствии с исходной компоновкой. Проблема была вызвана сдвигом координат Y в элементах управления при разборе: это было неверно. Правильный способ - shif ...
- Обновлен XML Extractor: теперь создается тег CONTROL для флажков и текстовых полей
- изменилось использование текущего каталога в каталог temp
- флаги, радиобокс, editboxes, comboboxes лучше поддерживаются
- теперь позволяет частичным доверенным абонентам
Что нового в версии 5.80.1781:
Версия 5.80.1781:
- PDF to XML, PDF to CSV, обновленная функциональность PDF to Text
- OCRMode теперь предоставляет 9 режимов
- .DetectLineInsteadOfParagraph теперь работает намного лучше. Установите False для захвата многострочного текста в ячейках таблицы!
- Поддержка элементов управления PDF улучшена
- Удаление данных FDF и XFDF
Что нового в версии 5.10.1747:
Версия 5.10.1747:
- PDF to XML, PDF to CSV, улучшены функции PDF до Text
- теперь поддерживает извлечение текста из текстовых элементов управления
- XML-экстрактор теперь добавляет стиль шрифта, размер, имя, текстовые координаты в теги
- Добавлен пример ASP.NET для использования OCR
- новое свойство OCRLanguageDataFolder для указания местоположения папки "tessdata"
- улучшена поддержка файлов PDF
- улучшает поддержку поворота текста
- обновленные примеры исходного кода
- обновленная документация
- незначительные улучшения и исправления
Что нового в версии 5.00.1626:
Версия 5.00.1626:
- Добавлена функциональность OCR (текст из изображений): теперь вы можете извлекать текст из встроенных изображений и восстанавливать поврежденный текст
- проблема исправлена с помощью CSV и XML-экстрактора, отсутствующих в последних столбцах с некоторыми настройками
- улучшена поддержка поврежденных файлов PDF
- теперь поддерживается многострочный текстовый поиск со способами сопоставления слов
- теперь можно искать текст с дефисами и на разных строках: см. образец нового исходного кода. Поиск текста с помощью дефиса
- новое свойство .RTLTextAutoDetectionEnabled (false по умолчанию) для автоматического определения языков RTL
- Улучшен просмотр графического интерфейса PDF Viewer
- незначительные улучшения и исправления
Требования :
.NET Framework 2.0 или выше
Ограничения strong>:
Экран Nag, водяной знак на выходе
Комментарии не найдены